6 resultados para Data mining

em Archivo Digital para la Docencia y la Investigación - Repositorio Institucional de la Universidad del País Vasco


Relevância:

100.00% 100.00%

Publicador:

Resumo:

A Data Mining model that is able to predict if a flight is going to leave late due to a weather delay. It is used, to be able to get a later connection if you have a connecting flight.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

La tesis contiene 4 capítulos principales. El primero de ellos recapitula sobre el concepto de data mining y su tipología, desde la perspectiva del análisis de datos de encuestas. Se realiza una clasificación entre técnicas exploratorias y técnicas predictivas, poniendo el énfasis en los análisis de componentes, de correspondencias simples, múltiples y clasificación, por un lado, y la metodología PLS path modelling y modelos Logit por otro. En el siguiente capítulo se realiza una aplicación de los métodos anteriores sobre los datos obtenidos de una encuesta on-line sobre satisfacción respecto a una institución y la viabilidad de una tienda de productos corporativos con el logotipo de la misma, comparando los resultados de las diferentes técnicas empleadas. El siguiente capítulo trata sobre una técnica relacionada con las técnicas exploratorias expuestas anteriormente que tiene que ver con la situación que se produce cuando se quieren analizar varias tablas de datos simultáneamente y de forma equilibrada. En particular trata sobre el problema que se presenta cuando esas tablas contienen distintos y distinto número de individuos. Se presenta una modificación del método original que permite dicho análisis y cuya efectividad es probada mediante un pequeño ejercicio de simulación así como el análisis práctico de una encuesta real sobre desigualdad social en un conjunto de 10 países diferentes. Para acabar, el último capítulo considera el caso en el que se quieren analizar respuestas a diferentes tipos de preguntas en un análisis de tipo exploratorio. En particular, cuando las preguntas dan lugar a variables continuas, categóricas y frecuencias provenientes de corpus textuales generados a partir de las respuestas a una pregunta abierta. Se considera en concreto la situación producida cuando existen dos tipos de entrevistados diferenciados por el idioma en que contestan, generando corpus distintos. Se muestra una posible manera de tratar esta situación, utilizando para ello la misma encuesta del primer capítulo.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

En este proyecto se describirá como construir un modelo predictivo de tipo gradient boosting para predecir el número de ventas online de un producto X del cual solo sabremos su número de identificación, teniendo en cuenta las campañas publicitarias y las características tanto cualitativas y cuantitativas de éste. Para ello se utilizarán y se explicarán las diferentes técnicas utilizadas, como son: la técnica de la validación cruzada y el Blending. El objetivo del proyecto es implementar el modelo así como explicar con exactitud cada técnica y herramienta utilizada y obtener un resultado válido para la competición propuesta en Kaggle con el nombre de Online Product Sales.

Relevância:

60.00% 60.00%

Publicador:

Resumo:

The CTC algorithm, Consolidated Tree Construction algorithm, is a machine learning paradigm that was designed to solve a class imbalance problem, a fraud detection problem in the area of car insurance [1] where, besides, an explanation about the classification made was required. The algorithm is based on a decision tree construction algorithm, in this case the well-known C4.5, but it extracts knowledge from data using a set of samples instead of a single one as C4.5 does. In contrast to other methodologies based on several samples to build a classifier, such as bagging, the CTC builds a single tree and as a consequence, it obtains comprehensible classifiers. The main motivation of this implementation is to make public and available an implementation of the CTC algorithm. With this purpose we have implemented the algorithm within the well-known WEKA data mining environment http://www.cs.waikato.ac.nz/ml/weka/). WEKA is an open source project that contains a collection of machine learning algorithms written in Java for data mining tasks. J48 is the implementation of C4.5 algorithm within the WEKA package. We called J48Consolidated to the implementation of CTC algorithm based on the J48 Java class.